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Crash Recovery 


Что такое Database Crash? 
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Sharding Recovery (реальность) 
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Crash Recovery (ожидания) 
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Crash Recovery (реальность) 
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Need (о go deeper 


DO YOU ^^ 
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Кэш (Cache) 


Cache в Apache Ignite — это распределенная структура, 
близкая по семантике к ConcurrentHashMap«K, У». 


Или согласно документации: 


IgniteCache is based оп JCache (JSR 107), so at the very basic 
level the APIs can be reduced to the favax.cache.Cache. 
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Партиционирование данных 
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Партициа, Кэш, Кластер 


Ргітагу-партиция Кластер 
(partition) (cluster) 
Cache { 
partitions = 4, 
backups = 3 
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Узел кластера Васкир-партиция 
(node) (partition) 
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Consistency 


В любой конкретный момент времени, 
только один узел кластера должен 
обрабатывать обновления по конкретной 
партиции. 


В противном случае возможны ошибки и 
нарушения консистентности. 
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Partitioned Cache 


Ргітагу-партиция 
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Васкир-партиция 
(partition) 


Cache { 
partitions = 4, 


backups = 1 
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Partitioned Cache (2 backups) 


Ргітагу-партиция Кластер 
(partition) (cluster) 
Cache { 
partitions = 4, 
backups = 2 
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Узел кластера Васкир-партиция 
(node) (partition) 
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Replicated = Partitioned (г backups) Cache 


Ргітагу-партиция Кластер 
(partition) (cluster) 


Cache { 
partitions = 4, 
backups = max 


Узел кластера Васкир-партиция 
(node) (partition) 
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Topology 


Узел кластера 
(node) 


Кластер 
(cluster) 


Topology { 

version = 4, 

nodes = [1, 2, 3, 4] 
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Изменение топологии: выход узла 
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Изменение топологии: вход узла 
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Switch (Переключение) 


Каждая топология имеет определенную, строго 
инкрементальную версию. 


Switch — процесс перехода с одной версии топологии на 
другую. 
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Switch 


До версии 2.8 все изменения топологии проходили по 
единому сценарию 


1) Блокируем все новые операции 


6) Начинаем обрабатывать новые операции 
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До версии 2.8 все изменения топологии проходили по 
единому сценарию 


1) Блокируем все новые операции 


2) Восстанавливаем операции, “связанные” с вышедшими 
узлами 


6) Начинаем обрабатывать новые операции 
ст зам 
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3) Дожидаемся завершения уже запущенных операций 
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6) Начинаем обрабатывать новые операции 
ст зам 
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До версии 2.8 все изменения топологии проходили по 
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4) PME (Partition Map Exchange) 
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6) Начинаем обрабатывать новые операции 
(HD) etie 


PME (Partition Map Exchange) 


#1 Получаем данные о статусах Я2 Вычисляем распределение на 


партиций на узлах кластера новую топологию и распространяем 
на узльт кластера 


Ехсһапде Ещиге 


Стева Done ехсћаде —. 


м Ехсһапде future 
а-г 
Node Joined 
Event Node Joined 
Event и (№) 
= Partitions 


= Full Message 


Partitions 
Single 
Message 


Node Joined 
New Joined Event 


Node Node Joined 


Event = = 
28 1^ HighLoad 
(мо аса 


Switch 


До версии 2.8 все изменения топологии проходили по 
единому сценарию 
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4) PME (Partition Map Exchange) 
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До версии 2.8 все изменения топологии проходили по 
единому сценарию 


1) Блокируем все новые операции 


2) Восстанавливаем операции “связанные” с вышедшими 
узлами 


3) Дожидаемся завершения уже запущенных операций 
4) PME (Partition Map Exchange) 
5) Каждый узел применяет новое распределение 


6) Начинаем обрабатывать новые операции 
ст зам 


Вход узла 
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Switch №1 — Rebalanced 


Affinity 
1- [1,2] 
2 - [2,1], 
3 - [1,2], 
4 = [2, 1] 
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Switch №1 — Rebalanced 
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Switch №2 — Late Affinity Assignment 


Affinity 
1= [1,2], 
2 = [2,1], 
3 = [1,2], 
4 = [2,1] 


BB, СРЈ 
78 о ве “и ШҰ 


Cache { 


} 


partitions = 4, 
backups = 2 


HL HighLoad++ 


Весна 2021 


Выход узла (2.8) 


Topology - 
Вени 1- [3,1], 
3< [1,2] 2 = [1,3], 
з= [1.8], ED 
4 = (3,1) 3213.4 
1-- - - ШЕ Ка (еј -] Cache ( 
partitions - 4, 
ЕН m | в de 8 backups - 2 


Выходяший 
узел 


HL HighLoad++ 


Весна2021 


Switch №1 — Left (PME) 
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Switch №1 — Left (PME) 
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Primary должна 
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Switch №1 — Left (PME) 
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Switch №1 — Rebalancing 
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Switch №1 — Rebalancing 
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Switch №2 — Late Affinity Assignment 
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Switch №2 — Late Affinity Assignment 
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А можно восстановиться быстрее? 


OPTIMISATION 
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Выход узла 


Выход узла провоцирует ребалансировку данных. 
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Baseline topology 


Baseline topology фиксируєт узлы кластера, Ha которых 
могут храниться данные. 


Набор партиций на узлах тоже фиксируется. 
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Возможны смены статуса ВасКир в Ргітагу (не наоборот). 
Нет последующей ребалансировки. 
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Switch №1 — Left 
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Switch №1 — Rebalancing 
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Switch №? 


Готово за одне два переключения! 
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Switch №? 


Готово за эдне два переключения! 
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Baseline Node Left on Balanced Cluster 
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Baseline Node Left on Balanced Cluster 


Primary должны 
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Cache { 
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Baseline Node Left on Balanced Cluster 


Могло быть готово за 0 переключении! 
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Balanced Baseline topology 


Отбалансированная Ва5ете-топология гарантирует, что 
при выходе узла: 


- Партиции останутся на своих местах, не потребуется 
перемещение партиций (гарантия от Baseline topology) 


- Не потребуется ребалансировка для переключения 
баскир-партиции в primary (гарантия от завершенной 
балансировки) 
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Промьшленная эксплуатация 


Отличительные черты “Реального Production”: 


. Привязка данных к конкретным физическим 
узлам 


- Отсутствие (завершенность) миграции данных 


между узлами | Же 
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PME-free Switch, с версии 2.8 


Подготовительные работы 
1) Настраиваем Baseline 
2) Дожидаемся полной ребалансировки кластера 


Отказ узла кластера 
1) Блокируем новые операции, не блокируя текущие 


2) Восстанавливаем данные для вышедших из строя 
primary 


зу Переключаем backup-napmuuuu в primary 


4) Разрешаем новые операции (Н) tete 


Pme-Free Switch (Блокировки + 
Кесоуегу) 


До версии 2.8 все изменения топологии проходили по 
единому сценарию 
1) Блокируем все новые операции 


2) Восстанавливаем операции, “связанные” с вьшедшими 
узлами 


5-Каждьн-узел-применяет-новое распределение 
6) Начинаем обрабатывать новые операции 
(HD) сес» 


Benchmarking PME vs PME-free switch 
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BENCHMARKING 
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Benchmark: Глобальное vs 
Локальное переключение 


Version | Worst latency (ms) Cluster { 
2.7.6 192 servers = 46, 
ud ка clients = 1, 


caches = 1, 
baseline = true, 


pm - true 
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Benchmark: Глобальное vs 
Локальное переключение 


Version | Worst latency (ms) Cluster { 
2.7.6 2396 servers = 46, 
E um clients = 1, 
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Отсутствие ожидания запущенных 
ранее транзакций 


Топология для них останется прежней, нос 
повреждениями, и транзакции либо "сломаются", либо 


продолжат выполняться на урезанной топологии. 

Tx3 Тх2 Cache ( 
partitions = 4, 
backups = 2 
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| Cluster ( 
baseline = true, 
balanced = true 
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Benchmark: отсутствие ожидания 
запущенных ранее транзакций 


Version | Worst latency (ms) Cluster { 
2.7.6 30590 servers = 46, 
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LongTx { 
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baseline = true, 
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ри (Ку); 
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} 
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Pme-Free Switch (Блокировки + 
Кесоуегу) 


До версии 2.8 все изменения топологии проходили по 
единому сценарию 
1) Блокируем все новые операции 


2) Восстанавливаем операции, “связанные” с вьшедшими 
узлами 


5-Каждьн-узел-применяет-новое распределение 
6) Начинаем обрабатывать новые операции 
(HD) сес» 


Pme-Free Switch (Блокировки + 
Кесоуегу) 


До версии 2.8 все изменения топологии проходили по 
единому сценарию 
1) Блокируем все новые операции 


2) Восстанавливаем операции, “связанные” с вышедшими 
узлами 


5-Каждьн-узел-применяет-новое распределение 
6) Начинаем обрабатывать новые операции 
ст зам 


Тх Кесоуегу 


Транзакции требуют восстановления, если вышел узел с 
primary-napmuuueü транзакции. 
Primary 


Cache { 
partitions = 4, 


— EE 
Cluster ( 
baseline = true, 


pam = true 
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Тх Кесоуегу 


Транзакции требуют восстановления, если вышел узел- 
координатор (инициировавший транзакцию) 


Primary Cache ( 
partitions = 4, 
backups = 2 
key є 2 ) 
Cluster { 


baseline = true, 
balanced = true 


Backups ) 
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One Phase Commit (1PC) 
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commit backups for keys 1, 4, 7 
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| acknowledge commit 
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| commit primary copies 
acknowledge 
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Two-Phase Commit (2РС) 


Phase | - Prepare (acquire locks) 


Backup Copy 


Backup Copy 


Coordinator 


Backup Copy 


Backup Copy 


Backup Copy 


Backup Copy 


Backup Copy 


Backup Copy 
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Подготовленные транзакции 


Primary 


| Cache { 
partitions = 4, 
backups = 2 
} 


Cluster { 
baseline = true, 
| balanced = true 
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Васкирѕ 


А можно восстановиться еше быстрее? 


OPTIMISATION 
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Уменьшение зоны восстановления 


Узел кластера, не содержащий фаскир-партиций, 
связанных с вьшедшими ритагу, не требует 
восстановления. 


Необходимо уменьшить список узлов содержащих backup- 
партиции для ритагу-партиций каждого из узлов. 
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Cellular affinity 


Cache { 

partitions = 8, 
backups = 3, 
cell-affinity = true 


Cluster { 
baseline = true, 
balanced = true 


} 


Cell size = backups +1 
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Cellular affinity 


Cache { 

partitions = 8, 
backups = 3, 
cell-affinity = true 


Cluster { 
baseline = true, 
balanced = true 


} 


Cell size = backups +1 
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Cellular affinity 


Cache { 

partitions = 8, 
backups = 3, 
cell-affinity = true 


Cluster { 
baseline = true, 
balanced = true 


} 


Cell size = backups +1 
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Cellular affinity 


Cache { 

partitions = 8, 
backups = 3, 
cell-affinity = true 


Cluster { 
baseline = true, 
balanced = true 


} 


Cell size = backups +1 
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Cache { 

partitions = 8, 
backups = 3, 
cell-affinity = true 


Cluster { 
baseline = true, 
balanced = true 


} 


Cell size = backups +1 


Cache ( 

partitions = 8, 
backups = 3, 
cell-affinity = true 


Cluster { 
baseline = true, 
balanced = true 


} 


Cell size = backups +1 


Cache ( 

partitions = 8, 
backups = 3, 
cell-affinity = true 


Cluster { 
baseline = true, 
balanced = true 


} 


Cell size = backups +1 
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Cellular affinity — Partial switch 


Switch 
іп progress 


Switch 
finished 


Cache { 

partitions = 8, 
backups = 3, 
cell-affinity = true 


Cluster { 
baseline = true, 
balanced = true 


Cell size = backups +1 
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Cellular affinity — Switch complete 


Switch 
finished 


Switch 
finished 


Cache { 

partitions = 8, 
backups = 3, 
cell-affinity = true 


Cluster { 
baseline = true, 
balanced = true 


Cell size = backups +1 
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Benchmarking PME-free vs Cellular switch 


4 


BENCHMARKING 
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Benchmark: Cellular switch #colocated 


‘Version Worst latency (ms) 
Е Cluster { 
d айе сее 506. E servers - 33, // 11x3 
PreparedTxs ( clients = 11, 
amount - 500 // per cell | 2.11.0* alive cells = 22 .. 64 caches - 1, 
broken cell = 572 "NM 
) baseline = true, 


balanced = true, 
cell-affinity = true 


| 
Prepared Txs ios Txs 
[v | 
ї З 


= : 


am - е бор 
) 


Clients 
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Benchmark: Cellular switch #non-colocated 


Version Worst latency (ms) 
Cluster { 
2.8.1 non-affected alive cell = 426 servers = 33, // 11x3 
р ат ( affected alive cells = 406 .. 438 і _ 
reparedTxs NND DM clients - 11, 
amount « 500 // per cell | caches - 1, 
) 2.11.0" non-affected alive се! = 41 b li -+ 
affected alive cells = 45 .. 81 aseline = True, 
broken cell = 47 balanced = true, 


cell-affinity = true 


| 
Ргерагед Тх5 
[= key € 1.x && key є 2.x Е 


= : 


m Le 
) 


Clients 
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Cellular switch : нюансы #1 


К сожалению, наличие replicated-K3weu гарантирует, что 
каждый узел кластера будет содержать backup-napmuuuu 
для вышедших primary. 


Т.е. для гер/ісағеа-кэшей ничего не ускорилось. 
Но справочники обновляются редко. 


Ожидаем быстрый/мгновенный глобальный Recovery по 
герисаед-кзшам. 
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Cellular switch : нюансы #2 


Транзакции могут оперировать ключами из разных ячеек. 


(Transaction tx = а ее 


Seeley, Ole е о 18) 
Ga elie Olen SE 


Cache ее Ио 60, 


Неповрежденные ячейки будут ждать гесоуегу таких 
транзакции. 
Но не полного восстановления поврежденных ячеек. 
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Benchmark: Cellular switch #multi-key 


Version Worst latency (ms) 
Cluster { 
2.8.1 non-affected alive cell = 1769 servers = 33, // 11x3 
affected alive cells = 1738 .. 1762 Е 
PreparedTxs ( broken cell = 1827 clients = 11, 
amount * 500 // per cell caches = 1, 
} 2.11.0" non-affected alive се! = 69 b li - 
affected alive cells = 1029 .. 1419 аѕеппе = True, 
broken се! = 1885 balanced = true, 


cell-affinity = true 


ша =! 


Prepared Txs 
| NE а а Server 
keys.size - 3 
pu = 8, 
Bs ram - 64gb 
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Cellular Switch (для неповрежденных 
ячеек) 


До версии 2.8 все изменения топологии проходили по 
единому сценарию 
1) Блокируем все новые операции 


6) Начинаем обрабатывать новые операции 
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Х Однако, всё не так просто 


VW Однако всё не так просто 
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Discovery (Ring vs Star) 


_ (а) (а) _ 
(Ф) \ | (%) 
МАЕ Ж ЖЕ 


TcpDiscovery 
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ZooKeeperDiscovery 
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Cluster.Size-- 
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Node left 


Плановый вывод из топологии в Shutdown Hook 
(SIGTERM) 

Выход при критической ошибке при правильно 
сконфигурированном FailureHandler 


public class StopNodeFailureHandler extends Abs 


a0verride public boolean handle(Ignite ignite, FailureContext failureCtx) 4 
new Thread( 


new Runnable() 1 
(а0у 


ухеггіде public void run() 4 
U.error(ignite.log(), 


IgnitionEx.stop|(ignite.name(), 


return true; 


оповешают кластер о выходе узла. 


Node failed 


- SIGKILL 
- JVM crash 


- OS crash 


- Hardware crash 


А 
2 
€ 
= 
| = 
` UD 
`y = 
: v 
Е - 
H 2 
2 e 
2 со 
< 
м 
= 
E) 


| 


Г, 
a 
а 


—— I 
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Timed out 


- Долгий GC 
- CPU usage is at 100% 
Broken network 
Выводим узел из топологии по факту 


истечения допустимого времени ожидания. 


Witting for news about (ufinite be like 
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Txs recovery time = 400 ms, 


Failure detection timeout = 2 sec 


Cellular switch - Worst latency (ms) 


Left (SIGTERM, 
FailureHandler) 


alive cells = 44 .. 71 


apr scovery broken cell = 410 


(Ring) 


alive cells = 29 .. 40 


Zookeeper broken cell = 427 
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Failed (SIGKILL, 
JVM/OS/HW Crash) 


alive cells = 31 .. 69 
broken cell = 419 


alive cells = 24 .. 46 
broken cell = 2571 


Timed out (GC, Broken 
network, CPU 100%) 


alive cells = 33 .. 87 
broken cell = 1932 


alive cells = 32 .. 40 
broken cell = 2967 
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Настройки vs Оборудование 


ZooKeeper config: 
tickTime=166 
minSessionTimeout=500 
maxSessionTimeout=500 


WARN [SyncThread:1:FileTxnLog(Q343] - fsync-ing the write 
ahead log in SyncThread:1 took 1731ms which will adversely 
effect operation latency. File size is 67108880 bytes. See the 
ZooKeeper troubleshooting guide 
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Итого (Ignite best practices) 


1) TcpDiscovery < 20 .. 40 узлов < ZookeeperDiscovery. 

2) SIGTERM для вывода узла. 

3) Правильный FailureHandler — ускоряет crash recovery. 
4) Defaults — работают везде, HO неоптимально. 

5) Оборудование должно соответствовать требованиям. 


6) Ваша нагрузка уникальна, Ha нее нужны профильные 
бенчмарки (и Ha crash recovery в том числе!). 
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av@apache.org 


ignite-summit.org, May 25, 2021, Online, Free 
github.com/apache/ignite/tree/ignite-ducktape/modules/ducktests 
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